模型學習方式 D4 - 強化式學習 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 5

AI & Data

初次抓舉AI的世界系列第 5 篇

模型學習方式 D4 - 強化式學習

15th鐵人賽

有瓜吃瓜

團隊消波塊上的海洋貓貓

2023-09-20 22:09:13

722 瀏覽

分享至

前幾天提到的學習方式都是將資料輸入模型，然後讓模型預測結果，而今天要來記錄的學習方式則有些不同，它需要讓模型不斷執行一連串的動作，來達到特定的最終目標

進入本日主題!

強化式學習(Reinforcement learning，RL)

訓練一個模型時，透過讓模型跟一個動態的環境互動，不斷嘗試各式各樣的行為，來學習正確地執行一項任務，
這種叫做嘗試錯誤(trial-and-error)的學習方法，會藉由嘗試錯誤的行為來適應環境，不需要預先標記任何資料，但會讓模型在學習的過程中不斷做出動作，然後根據環境反饋的好壞，來讓模型採取的行動獲得獎勵或懲罰，
通過這種方式，模型就可以自主地進行修正，使其能夠在無需人為干預或明確的程式指導下，就能夠做出一系列的決策，以最大化獲得獎勵(reward)。

強化學習的運作方式主要是依賴於動態環境中的資訊，這些資訊會隨著外部條件的改變而變化，而它的目標就是希望能找到一個最佳策略(Policy)，可以最大化整個學習過程(episode)的獎勵

通常情況下，強化學習適用於無法獲得明確標籤或標準答案的情境，但能夠判斷行動結果的時候

想想看下面這個問題：
Q：如果今天在回家的路上發現前面道路被封起來了，你會怎麼辦？
回答：嘗試看看另一條稍遠的小路繞行

這就是強化式學習的概念，你會基於以前遇到過的經驗，嘗試不同的方法來解決問題。在這個過程中，不斷學習，以找到最有效的方式